网络首发 | 健康信息学的学科范畴、范式框架与关联路径研究(王若佳 李世娟 翟兴)
网络首发时间
2023-01-31
网络首发地址
https://kns.cnki.net/kcms/detail//42.1085.G2.20230131.1331.003.html
Photo by Andy Quezada on Unsplash. |
王若佳
北京中医药大学管理学院,北京,100105
李世娟
北京大学信息管理系,北京,100871
翟兴
北京中医药大学管理学院,北京,100105
目的 | 意义 | “健康中国”战略背景下,健康信息学逐渐成为信息资源管理学界的热门研究领域,系统梳理该学科的学科范畴、学科范式和学科体系关联路径对国内健康信息学的建设与发展具有重要意义。 | |
研究设计 | 方法 | 对20,559篇健康信息学论文的学科交叉现状和研究主题进行计量分析,从定量角度探究健康信息学的学科范畴;采用内容分析法从研究内容、数据来源、研究方法和理论基础进行开放性编码与归纳,从定性角度构建该学科的范式框架;采用 Neo4j 图数据库构建了健康信息学各体系要素间的关联路径知识图谱,并对其可行性进行验证。 | |
结论 | 发现 | 健康信息学是一个典型的交叉学科,具有学科覆盖面广、交叉性强的特征;人工智能算法应用、用户与信息行为、人机交互系统应用、信息技术的临床应用、信息与知识服务、信息存储与组织、信息检索与系统、文献与信息计量是目前主要的健康信息学研究内容,并以此为核心构建了该学科的范式框架和关联路径知识图谱。 | |
创新 | 价值 | 系统总结了健康信息学的学科范畴以及知识体系之间的关联关系,并结合我国健康信息学学科体系的发展规律提供启示建议。 | |
关键词 | 健康信息学;学科范畴; 范式;知识图谱; 关联路径;Neo4j |
1 引言 |
人民健康是民族昌盛和国家富强的重要标志,“健康中国”战略的提出与发展加快推进了我国的健康信息化建设,同时也使得人民群众对医疗健康信息有了更高、更多样化的需求。健康信息学是一门融合情报学、信息科学和医学等多学科的新兴交叉学科,美国医学信息协会将健康信息学定义为信息研究者对数据挖掘、文本处理、认知科学、人机界面设计、数据库等技术方法在公共健康、临床研究或生物基因领域的开发、应用和评估。该学科知识体系的构建、创新与完善对加快健康中国建设、促进全民健康发展具有重要意义。
健康信息学是国际Information Science领域的一个重要研究分支,早在20世纪90年代,国外就已经开始了对健康信息学的研究。笔者对相关文献进行了梳理和总结,发现健康信息学的发展大致经历了三个阶段。2000年以前为学科的初始发展阶段,在该阶段健康信息学还没有完全从医学信息学领域中脱离出来,其研究主要以医学信息为主,但开始出现了对于健康信息学相关概念和应用的探讨。2000-2010年为健康信息学的快速成长阶段,在该阶段医学信息学开始逐渐分化为生物信息学和健康信息学两个研究方向,生物信息学的研究内容主要包括全基因组信息学、系统生物学、药物信息学、转化医学、临床研究信息学等,其研究范围偏向于医学领域;而健康信息学的研究内容主要包括消费者健康信息学、健康教育、远程医疗、健康信息行为等,其研究范围偏向于社会科学和教育学领域。这也标志着健康信息学开始作为一个独立的学科逐渐发展壮大。2010年后为健康信息学的成熟发展阶段,在该阶段健康信息学的研究领域和研究内容逐渐清晰,健康信息学的发展呈现出不断深入、与时俱进的特点。特别是随着互联网和人工智能等信息技术的飞速发展,健康信息学也随着技术的进步而不断地变革,与相关学科之间的交叉融合日益频繁。尤其是在图情档领域,尤其是在图情档领域,健康信息学近些年的发展十分迅速,在2021年度被评为我国图情档学界十大学术热点之一。同时,在这个阶段,以图情档学科为主要学科阵地,在国内陆续成立了各种以健康信息学为主题的学会和学术组织,逐渐形成了健康信息学领域的学术共同体。
经过几十年的发展,国内外学者在健康信息学领域取得了一系列丰硕的研究成果,但总体来说目前的研究仍较为分散,还未形成体系。为促进我国健康信息学学科的发展,一些学者对健康信息学已有研究进行了总结并对未来发展方向进行了展望。例如,周晓英等从概念内涵、学科构成、知识框架、发展现状等角度厘清了健康信息学是什么、由哪些内容构成、发展过程如何、中国的健康信息学该如何发展等基本问题;朱庆华等基于文献计量法分析了健康信息学的文献数量分布,代表性期刊、学者和研究机构,以及学科发展过程中的热点主题与研究趋势;徐璐璐等基于LDA主题模型与文本挖掘技术,对2000-2018年的相关文献进行分析,发现医学信息学研究逐渐向健康信息学方向转变。以上研究对健康信息学的学科发展具有一定推动作用,但目前仍缺乏对该学科研究范式(以下简称研究范式)的系统探究以及对学科知识体系间关联关系的分析应用。因此,本文试图通过对已有文献的梳理,从定量和定性两个角度,对健康信息学的学科范畴和研究范式进行总结,通过对不同研究范式在研究内容、数据来源、研究方法和理论基础四部分的剖析,解释健康信息学的研究内涵,并基于知识图谱技术构建健康信息学相关知识体系的关联路径,以期为相关学者从事该方向研究提供理论和方法上的指导。
2 研究设计 |
本研究采用定性定量相结合的方式,从学科交叉和研究主题两个角度探讨了健康信息学的学科范畴,从研究内容、数据来源、研究方法和理论基础四个维度构建了健康信息学研究的范式框架,最后基于知识图谱实现了健康信息学相关知识体系的关联,并通过实例示范了其应用场景。具体研究思路如图1所示。
图1 研究思路图 |
2.1 数据来源与收集
本研究综合采用主题检索与期刊检索方法进行论文数据收集。主题检索方面,采用health information、health informatics关键词在Web of Science数据库中进行主题词精确匹配,剔除其中的综述、序言、编辑说明等类型文章,共获取论文题录信息9,995条。由于健康信息学领域的论文并不一定均含有health informatics、health information等词语,仅在数据库中进行主题检索可能会对样本论文的代表性产生影响,因此本研究补充了期刊检索方法来扩充数据。期刊检索步骤如下:首先,参考重要的期刊评价工具JCR(期刊引用报告,Journal Citation Reports)中medicine大类health informatics小类中的期刊分区情况,选取了健康信息学领域中影响因子排名前三的代表性期刊――Journal of the American Medical Informatics Association(JAMIA)、Journal of Biomedical Informatics(JBI)和International Journal of Medical Informatics(IJMI);然后,以Web of Science核心合集数据库为检索平台,限定期刊名称,查询并导出2021年12月31日前发表论文的完整题录信息(包括论文的参考文献);最后,对已收集文献进行筛选,去除会议通知、书评、编辑前言等文章后,共获得11,325篇论文。对主题检索与期刊检索方法获得的论文题录数据集进行合并与去重处理,最终获得论文20,559篇,作为本研究科学计量分析的对象。
2.2 研究过程与方法
2.2.1 学科范畴的量化
健康信息学是一个新兴综合性学科,其学科范畴的内涵与外延仍有待进一步探究。关于学科范畴,黄泰宋认为其是学术上成系统的主张、理论、概念和知识系统,是一门学科的认识领域或认识范围,并在其著作中通过研究主题探讨了图书馆学的学科范畴;周晓英等从健康信息学的学科构成、其与医学信息等相关学科之间的关系等角度讨论了健康信息学的学科范畴。由此可见,多数学者都从研究主题和学科之间的交叉关联等角度来研究学科范畴。借鉴前人的经验,本文也从学科交叉和研究主题两个角度对健康信息学的学科范畴进行量化分析。学科交叉方面,采用引文分析和计量方法,首先基于Web of Science数据库自建的分类体系,将所有学科细分为254个类别;然后基于已收集的文献题录数据和WOS提供的“期刊-学科”对照表,构建了“引文-期刊-学科”的映射关系;最后通过统计20,559篇论文的参考文献的所属学科类别得到健康信息学的高频引用学科,通过学科之间的同被引关系展现学科交叉融合情况。研究主题方面,首先采用TF-IDF算法对20,559篇论文的关键词做向量化处理,然后使用k-means算法对论文主题进行聚类,最后基于每个类别的高频词总结得到热点主题,以从宏观上把握该学科的研究范畴。
2.2.2 范式框架的构建
健康信息学研究范式是健康信息学领域中的研究者所共有的基本世界观,决定了该领域“研究什么”以及“怎么研究”。参考已有文献对研究范式的定义,本文从研究内容、数据来源、研究方法和理论基础四个角度对健康信息学领域论文做定性分析,其中对研究内容进行分析可回答“研究什么”的问题,对数据来源、研究方法和理论基础进行归纳可理清“怎么研究”的思路。
为了系统、深入地探究健康信息学的研究体系,本研究采用内容分析法对相关文献进行梳理。由于文本资料体量较大且研究范式具有一定的时代特征,发表年份较久的论文价值较小,因此从近三年发表的论文中进行分层抽样,以确保样本在时间和期刊中的合理分布,共选取文献642篇。首先,2位编码员对同样100篇论文进行编码,编码过程中存在大量交流和讨论,若存在争议则由第三人来确定最终编码结果,初步形成包含32个基本概念的编码本;为保证编码结果的科学性与一致性,2位编码员基于已有编码本对另外100篇论文进行背对背编码,并采用Kappa系数对编码一致性进行检验,结果显示Kappa系数为0.89,说明标注结果具有高度一致性;最后,为了保证研究的可信度,研究人员对余下的文本进行编码与饱和度检验,直至未发现新的概念与范畴,最终得到642篇论文的编码结果。
2.2.3 关联路径可视化
为了帮助健康信息学领域科研人员厘清学科知识关联的脉络,有必要对该学科的学科交叉、研究主题以及范式框架中涉及到的研究内容、研究方法、数据来源和理论基础进行有机整合。本研究采用知识图谱技术实现关联路径的可视化,首先构建知识图谱的逻辑本体,明确实体与实体之间的关系,并通过Neo4j图数据库对已标注文献数据进行存储;然后基于Cypher查询语言,针对研究者在科研过程中的常见问题进行查询实验,以验证该知识图谱在科研服务中的应用价值。
3 健康信息学的学科范畴 |
3.1 健康信息学的学科交叉
为探讨健康信息学领域的学科交叉情况,对20,559篇健康信息学论文的239,590篇参考文献所属期刊的学科类别进行统计分析。结果显示,20,559篇健康信息学论文共引用了来自241个学科的文章,其中前十个高频引用学科如图2所示。可以看到,高频引用学科以信息科学、医学健康、计算机科学为主,其中信息科学包括Medical Informatics(医学信息学)、Information Science & Library Science(图书馆情报学);医学健康包括Health Care Science & Services(医疗保健科学与服务)、Medicine, General & Internal(医学全科和内科)、Public, Environmental & Occupational Health(公共、环境与职业健康)、Health Policy & Services(卫生政策和服务);计算机科学则集中在偏应用类的学科,包括Computer Science, Information Systems(计算机科学与信息系统)、Computer Science, Interdisciplinary Applications(计算机跨学科应用)和Computer Science, Artificial Intelligence(计算机科学与人工智能)。
图2 前十个高频引用学科情况 |
为探讨学科整体分布特征以及学科之间的交叉融合程度,采用可视化分析工具Echarts生成健康信息学领域的学科覆盖图(图3),图中的节点代表学科类别、节点之间的边表示共被引关系、节点大小为被引次数、节点颜色为该学科所属的学科大类。需要注意的是,由于部分学科的引用次数较低,具有一定偶然性,因此图3中仅展示了引用次数大于300的学科。可以看到,除了信息科学、医学健康和计算机科学外,健康信息学还涉及到数学、生物学、生物化学、社会科学、工程学、心理学等学科大类。其中,医学健康学科覆盖面最广,除了高频引用的非临床专业学科外,还涉及Nursing(护理学)、Oncology(肿瘤学)、Psychiatry(精神病学)、Radiology, Nuclear Medicine & Medical Imaging(放射学、核医学与医学影像学)等共50个医学健康学科。从学科交叉角度来看,Computer Science, Information Systems(计算机科学与信息系统)、Health Care Science & Services(医疗保健科学与服务)与其他学科之间的知识流动较多,而信息科学知识流动较少;此外,Mathematical & Computational Biology(数学与计算生物学)与生物化学大类、Public, Environmental & Occupational Health(公共、环境与职业健康)与部分临床医学学科之间也存在一定的交叉融合。
图3 健康信息学领域的学科覆盖图 |
3.2 健康信息学的研究主题
关键词是论文核心研究内容的体现,对关键词进行聚类分析有助于从宏观角度把握健康信息学领域的热点主题和知识结构。使用k-means算法将该学科的20,559篇论文划分为4个主题,统计得到每个主题的高频关键词如表1所示。可以看到,主题#0以人工智能、自然语言处理等计算机技术方法为主,主要数据来源为电子病历或临床决策支持系统;主题#1探讨了信息技术(如互联网、远程医疗)对患者安全、隐私、沟通等方面的影响;主题#2聚焦于人机交互领域,涉及可用性、互操作性、系统评估等关键词;主题#3围绕covid-19疫情背景下的流行病学与公共健康展开研究。
表1 4个主题的高频关键词 |
4 健康信息学的范式框架与主要研究内容 |
范式是由基本假设、待解决的重要问题、研究技术和类似研究的范例组成的一整套思想体系。学科共同体是学科范式的主要特征,解决问题的方法、研究问题的方式是范式的本质,其在客观上促进了理论的形成。基于对以往范式概念的梳理和理解,本文认为研究内容、研究方法、理论基础和范例数据来源是研究范式的核心,通过对这四方面内容的探讨,可以解决该领域“研究什么”以及“怎么研究”的问题。因此从这几个方面入手讨论健康信息学的研究范式可以初步掌握该领域研究范式的基本轮廓。
根据以上分析并采用前文介绍的研究方法,本文对642篇论文进行开放式编码(如表2所示),结合编码结果和健康信息管理的特点,构建了健康信息学的研究范式及其内在的逻辑关系框架,如图4所示。该框架从现实的医疗健康问题出发以发现科学问题,从而解决“研究什么”的问题;然后从理论基础、数据来源、研究方法三个层面制定研究方案,来决定该问题“怎么研究”。该框架中的各个模块相互关联又层层递进,共同构成了健康信息学的学科范式架构。
表2 编码结果汇总 |
图4 健康信息学基本研究范式框架 |
目前,健康信息学的主要研究内容包括人工智能算法应用、用户与信息行为等8类,占比情况如表3所示,由于部分论文涉及多类研究内容,因此占比总计并不为100%。下文针对每类研究内容,分析各研究内容涉及到的理论基础、研究方法和数据来源,并通过具体案例剖析四者之间的关系。
表3 健康信息学主要研究内容占比情况 |
4.1 人工智能算法应用
人工智能是指通过研究模拟人类智能实现机器智能的一门科学,其相关算法繁多,常见的算法如朴素贝叶斯、决策树、支持向量机、深度学习、遗传算法、蚁群算法等。通过文献梳理发现,健康信息学领域相关论文遵循“提出算法――算法应用――效果评估”的研究流程,首先根据实际健康医疗问题场景直接选取或改进已有算法,然后基于实证数据验证算法应用可行性,并与其他算法效果进行对比。例如,Xu等人基于美国老年人22年的纵向调查数据,构建了多任务LSTM模型预测老年人抑郁症的病发情况,并与支持向量机等传统模型进行了比较;Topaz等人结合文本挖掘和机器学习算法,从家庭护理就诊记录中抽取跌倒相关信息,预测患者跌倒风险,并与基于规则提取的结果进行比较。
此类研究在数据来源方面以临床数据为主,包括作者所在机构的非公开临床数据(如韩国京熙大学医学中心收集的96名糖尿病患者临床数据)、合作机构的非公开临床数据(如与北卡罗来纳州立大学合作的Mayo诊所电子病历数据)、政府公开临床数据(如纽约州医疗保健成本和利用项目数据库)、平台公开临床数据(如R语言GEOquery包中GEO癌症数据)、大赛公开临床数据(如Kaggle竞赛生物医学分类数据)等。研究方法方面,以算法模型、自然语言处理等信息技术为主。理论基础则主要集中在信息论、模糊集、粗糙集等数学与信息科学理论。
4.2 用户与信息行为
健康信息学中的用户涵盖医生、护士、患者、患者家属等一系列具有健康需求的人员。相关研究一方面聚焦于用户本身,如对用户满意度、健康信息素养、健康信息需求的调研,或基于用户基本特征对其进行分类或聚类;另一方面还包括对用户在信息发布、获取、搜寻、检索时的一系列行为进行分析探讨。例如Zhan等人基于问卷调查和社交媒体数据,探讨了用户对电子烟的使用意愿、购买方式和评价标准;Fareed等人基于住院患者门户网站中的患者使用行为,通过分层聚类方法识别了不同类别用户的偏好,为相关网站设计提出针对性的改进建议。
此类研究的理论基础既涵盖计划行为理论、技术接受理论等认知心理学理论,也包括情报学领域中的信息行为等理论,数据来源以调研数据、网络数据为主,多采用描述性统计或内容分析方法。
4.3 人机交互系统应用
人机交互是研究人和计算设备之间相互影响的技术,其目标是使机器帮助人高效、舒适、安全地完成任务需求。此类论文主要以用户为中心,涉及“需求调研――系统设计开发――系统测试评估”全流程中的一个或多个步骤。首先,在系统设计前需要调研用户需求,例如Turchioe等人在设计开发慢性病健康自我监测系统前,访谈了25名拉丁美洲低收入糖尿病患者的相关需求;Calvillo-Arbizu等人通过对肾脏疾病患者、医生和护士进行访谈及问卷调查,设计了电子健康系统原型。明确系统目标后,开始对系统进行设计开发与初步评估,如Ben等人采用语义技术和排序算法构建了抗生素处方推荐系统,通过与医院中心密切合作,由医生初步评估了该系统应用的可行性;Chávez等人基于参与式设计方法分别让临床医护人员和心理学专业学生对阿尔兹海默症患者监测系统进行了设计与评估。最后是对系统应用效果进行详细测试评估,如Georgsson等人采用可用性评估中的认知走查法(Cognitive Walkthrough)探讨了移动健康应用程序存在的可用性问题;Cho等人采用眼动追踪结合大声思维的方法对HIV预防应用程序的可用性进行了评估。
由于人机交互领域主要采取用户实验、访谈、问卷调查等方法获取用户的需求与看法,因此此类研究最为常见的数据来源为调研数据。研究方法方面,以系统分析设计和系统测试评估为主,前者包括参与式设计、功能分析、算法模型优化,后者则以启发式评估、认知走查、用户测试等可用性评估方法为主。由于更多涉及到人的心理认知,因此相关研究主要以原型理论、生态系统理论、自我决定理论等社会与心理学理论为依据。
4.4 信息技术的临床应用
临床医学是综合运用医学、流行病学、卫生统计学等学科的理论知识与研究方法,研究疾病的病因、诊断、治疗和预后的科学,是直接面对疾病、患者,对患者直接实施治疗的科学。健康信息学中的此类论文主要以探讨信息技术应用对患者健康情况改善或对临床医护工作效果为研究内容,例如Denneson等人探讨了在线健康教育对退伍军人在医疗互动中的感知效能、与临床医生之间的信任及对本人心理健康情况是否有明显改善作用;Masterson等人探讨了住院患者门户网站干预对患者活动、患者满意度、患者对健康信息参与度和30天再入院率的影响。
已有研究主要使用问卷调查、临床试验等方法收集患者信息。需要注意的是,和人机交互中的用户实验相比,此类研究在实验设计时多采取常见的医学试验设计方法。例如Mensorio等人在评估互联网自我管理计划对肥胖和高血压人群健康管理有效性时,采用随机对照的实验设计,将肥胖和高血压人群随机分为互联网干预组和常规医疗对照组;Parsa等人采用了对照配对设计,将子痫前期孕妇分为干预组与对照组,分别对两组孕妇使用移动应用程序前后进行了知识问卷调查。这种试验设计方法与循证医学理论密切相关,所谓循证医学,是指遵循证据的医学,其核心在于高质量的临床医学研究证据,因此需要通过规范的临床试验收集质量可靠的数据。数据收集完毕后,主要采取卫生统计学中的方法进行数据分析,具体包括配对样本t检验、两独立样本t检验、方差分析、卡方检验、线性回归等。
4.5 信息与知识服务
信息与知识服务相关研究主要聚焦于在线信息服务、个性化信息服务、知识服务等提供的服务内容、服务质量及其使用后的效果。例如Kim等人调查了240个移动健康APP的数据可访问性,发现在数据格式、数据粒度、数据量方面均存在较大限制;Mohr等人对比了使用智能手机服务和传统报告方式在采集护理数据时的一致性和完整性,发现智能手机数据采集服务可采集更多的数据,且平均完成时间不超过2分钟。
此类研究的数据来源较为分散,调研数据一般用于收集用户对该信息服务的主观评价,临床数据用于评估信息服务在临床中的应用效果,网络数据则多见于对在线信息服务内容的收集。感知有用性、感知易用性等社会与心理学概念和理论是其主要依据的理论基础。数据分析方法通常以统计分析为主,内容分析为辅。
4.6 信息存储与组织
将大量分散、杂乱的信息进行有序地组织和存储是情报学的重要研究内容之一。健康信息学中与信息存储和组织相关的论文多涉及临床数据库、医学术语表、医学数据标准化、医学本体等内容。例如,Gardner等人从美国人口普查结果中提取患者的社会经济状况,将其链接到对应的电子健康记录,并存储于临床数据库中;Hernandez-Ibarburu等人提出了一种可将ICD-9中的诊断编码快速映射为ICD-10编码的方法,有助于解决繁琐的临床编码版本过渡问题。
此类研究的数据来源以网络数据、临床数据和文献数据为主,一般基于分类法、主题法、本体论等信息组织领域理论。分析方法方面,由于临床病历、医学信息以文本数据偏多,且数据量较大,因此多使用自然语言处理技术对大量文本内容进行自动处理与分析。
4.7 信息检索与系统
信息检索系统可从大量信息中找到用户所需求的信息,相关研究涉及信息检索的原理、方法、技术和效果评估。部分学者从用户视角出发,如Zadro等人为提高物理治疗证据数据库的用户检索质量,基于用户实验方法对比了用户观看视频教程前后的检索效果;部分学者从系统视角出发,如TorjmenKhemakhem等人提出了一种基于上下文的医学图像检索方法,通过文本术语的概念映射进行查询扩展,并在ImageCLEF大赛数据集上进行了效果验证。此类论文多采用网络公开的信息检索数据集,基于信息检索相关原理,通过自然语言处理、算法模型等技术方法提出新的检索方法,并与已有检索系统的效果进行对比。
4.8 文献与信息计量
文献计量相关研究主要采用定量方法考察文献外部特征,从而描述、评价和预测某一学术领域的研究现状与发展趋势,如Kastrin等人通过网络分析方法分析了MEDLINE数据库中引文的动态特性和增长原理;Gu等人使用HistCite、CiteSpace、NetDraw和NEViewer等文献计量工具描述了电子健康(e-health)领域的发展过程与研究热点。相关论文主要针对文献数据,基于文献老化、引文分析等文献计量学理论,使用文献计量、社会网络分析等方法进行量化分析。
5 健康信息学知识体系的关联路径 |
前述研究分别从学科范畴和范式框架两方面对健康信息学的学科交叉、研究主题、数据来源、研究方法和理论基础等特征进行了分析,本节通过知识图谱技术构建以上各知识体系要素之间的关联路径,以帮助科研人员把握健康信息学各知识体系间的内在逻辑关系。
5.1 关联路径知识图谱的构建
首先,基于前文涉及的概念要素,明确健康信息学研究的实体与实体间关系,构建知识图谱的逻辑本体层(图5)。该本体共包括科学研究、学科、研究内容、关键词、数据类型、数据来源、方法类别、具体方法名称和理论基础共9个实体,以及科学研究与关键词、科学研究与研究内容、科学研究和所属学科、科学研究与理论基础、科学研究与数据类型、科学研究与方法、研究内容与所属学科、理论基础和所属学科、方法类型和具体方法名称、数据类型和数据来源10种关系。
图5 关联路径知识图谱的逻辑本体层 |
采用Neo4j图数据库实现数据层的存储与可视化,通过py2neo导入已标注的642篇论文数据,最终得到各类实体节点数量2,848个、各类关系数量4,336条,图6为该知识图谱的局部可视化展示,其中不同颜色节点代表不同类型实体,粉色节点为研究论文、黄色节点代表论文所属研究内容、棕色节点为论文的关键词、深浅绿色节点分别表示该研究使用的方法类型及具体方法名称、深浅蓝色节点则分别代表该研究使用的数据类型及数据来源。
图6 关联路径知识图谱的可视化展示(局部) |
5.2 关联路径知识图谱的应用
健康信息学研究的关联路径知识图谱可以通过图的方式将知识进行可视化展现,并基于节点与节点之间关系的链接发现相互关联的新知识,有助于领域学者进行多维度语义搜索和科研论文的智能推荐。
应用场景1:多维度语义搜索
研究方法、数据来源和理论基础是学术研究中的重要组成,本研究构建的知识图谱可以帮助科研人员针对特定研究内容实现多维度语义搜索。例如,科研人员欲获取“用户与信息行为”领域的常见研究方法,可基于Cypher查询语句得到如图7所示的可视化图谱展示,该图中深绿色节点为研究方法类别,浅绿色节点为具体的方法名称,用户可通过点选具体的方法名称查看有哪些论文(粉色节点)使用了该方法进行研究。
图7 用户与信息行为领域常见研究方法的可视化检索结果 |
应用场景2:科研论文智能推荐
学术论文数量的快速增长为科研人员的文献阅读带来较大负担,如何从庞大的论文数据库中迅速找到合适的文献成为亟待解决的难题。和基于文本匹配的论文推荐不同,本研究构建的知识图谱可以从关键词、研究方法、数据来源、理论基础等多方面实现更加细粒度的智能推荐,以满足科研人员的多样化文献检索需求。例如,针对论文“Factors influencing behavior intentions to telehealth by Chinese elderly: An extended TAM model”,图8展示了该论文与其相似论文之间的可视化关联路径,二者均基于TAM模型、采用结构方程方法对问卷数据进行了分析,在研究内容、理论基础、研究方法和数据来源4个维度相似。
图8 相似论文之间的可视化关联路径 |
6 结论与讨论 |
6.1 研究结论
本文采用定性定量相结合的方法分别从理论和实践两个层面对健康信息学的学科范畴、研究范式和学科体系各要素之间的关联关系进行了探索性研究。
从理论层面上看,为了明确健康信息学的学科范畴和研究范式,本文首先对健康信息学相关文献进行了归纳和总结,根据研究结果发现,健康信息学是以医疗健康相关问题为研究背景,以信息科学,特别是其中的图书情报学科的基本理论和研究方法为基础,以大数据和人工智能等前沿信息技术为支撑而发展起来的一门新兴科学,与其他传统学科相比具有学科覆盖面广、交叉性强等特点,其中医疗健康、信息科学和计算机科学是与健康信息学关系最为密切的三个学科。其次,本文从健康信息学领域的研究内容、研究方法、理论基础和数据来源等角度探讨了健康信息学的研究范式,为研究人员了解健康信息学的基本研究范式框架提供参考。
从实践层面上看,为了使相关研究人员能够了解健康信息学研究领域的发展方向并能快速进入到该领域的研究之中,本文首先从实践角度对健康信息学领域的研究热点和学科关联情况进行了分析。根据研究结果发现,健康信息学常见研究主题包括电子病历挖掘、临床决策支持系统应用、人机交互和COVID-19背景下的公共健康;其次,本文通过具体实例剖析人工智能算法应用、用户与信息行为、人机交互系统应用、信息技术的临床应用、信息与知识服务、信息存储与组织、信息检索与系统、文献与信息计量8大研究内容之间的关联关系并构建了学科关联知识图谱;最后,以多维度语义搜索和论文智能推荐这2个常见科研服务场景的设计为例,通过实证研究验证了本研究在学科知识服务中的应用价值。
6.2 启示与建议
针对上述研究结论,并结合我国健康信息学学科体系的发展规律,本文认为可以从以下三个方面来促进我国健康信息学的发展。
(1)进一步加强相关学科之间的关联与融合
健康信息学虽然具有学科覆盖面广、交叉性强等特点,但从研究结果中也发现,在与其相关的主要学科中,计算机科学、医疗健康与其他学科之间的知识流动较频繁,而图书情报学和医学信息学与其他学科的知识流动相对较少。这说明虽然图书情报学和医学信息学都对健康信息学的发展起到了重要的贡献作用,但是两个学科之间以及这两个学科与其他学科之间的交流与合作还不充分。这可能与图书情报学和医学信息学分属不同的学科领域,有着不同的研究范式有关。未来需要进一步加强这两个学科之间的沟通和合作,融合图书情报学和医学信息学在理论基础和研究方法等方面的优势,来更好地推动我国健康信息学的发展。
(2)提高研究人员的学科综合知识素养
由于健康信息学是一个近些年才兴起与发展的学科,从事该学科研究的人员大多来自其他研究领域。以图书情报领域为例,图书情报领域学者往往基于自己以往的研究基础,在研究内容上多以健康用户与健康信息行为、健康信息与知识服务、健康信息存储与组织等相关研究为主;在数据收集方式上主要采用的是调研数据、文献数据和网络数据;在研究方法上也主要采用定性、定量或者定性和定量相结合的方法,研究存在明显的图书情报学范式,缺乏研究的全面性和综合性。然而在健康信息学的研究中,除了图书情报领域,还包含了很多其他学科的知识,例如在数据来源方面包括大量医学临床数据,在技术方法上还大量借鉴了人工智能算法、自然语言处理等最新的信息技术。如果学者只局限于本学科领域知识,对其他相关领域不关心或不了解,就可能导致研究的片面性。因此,相关研究人员除了要与其他领域的学者密切合作外,也应加强自身的综合知识储备,例如图书情报学者也需要对医疗健康、计算机等其他学科的知识体系有一定程度了解,这样才能够打破学科之间的界限和偏见,综合多学科的知识优势,站在一个更高的层次来审视健康信息学的研究问题和未来发展方向。
(3)注重实用性的基础上加强对本学科基础理论的研究
根据前文的研究结果可以看出新兴技术在医疗健康中的应用以及用户健康信息行为、信息与知识服务等是目前健康信息学领域研究较多的主题。这说明健康信息学既能够结合实际应用场景解决该领域目前亟须解决的前沿热点问题,又能够将其他学科最新的技术引入本领域的研究中,来提升本领域的研究成效,具有明显的实用性和应用性的特征。然而,健康信息学如果要作为一门独立学科自主发展,需要拥有自己独特的理论基础,这样才能够避免成为其他学科的“附属”或者“某种研究方向”。因此,本文建议健康信息学相关学者在继续注重实用性研究的基础上,还需加强对学科基础理论的研究,建构属于本学科自己独特的理论体系,这样才能够使健康信息学真正成为一个与其他学科既有密切联系又真正自主发展的学科。
*参考文献略,请详见原文。 |
END
版式设计
陆澜
制版编辑
卢慧质
关注公众知识状态 / 引领学科发展潮流 Focusing on the State of Public Knowledge Leading the Development Trends of the Discipline |
网络首发 | 数智时代的算法素养:内涵、范畴及未来展望(夏苏迪 邓胜利 付少雄 赵海平)
网络首发 | 以中国式现代化全面推进中国图书馆事业新发展——基于人口规模巨大的现代化的思考(王世伟)
网络首发 | 舆论场观点极化现象研究:成因、识别与应对策略(白云 李白杨 毛进 李纲)
网络首发 | 公共文化数据协同治理研究:内涵、范畴与理论框架(韦景竹 王政)
网络首发 | 元宇宙与智慧图书馆:科技赋能文化新路径(赵志耘 林子婕)